Text Replacement এবং Text Extraction

Java Technologies - অ্যাপাচি পিওআই (ওয়ার্ড) টেক্সট ম্যানিপুলেশন |
194
194

অ্যাপাচি পিওআই (Apache POI) ব্যবহার করে Word ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাকশন (Text Extraction) এবং টেক্সট প্রতিস্থাপন (Text Replacement) দুটি খুবই গুরুত্বপূর্ণ কার্যাবলী। এই কার্যাবলীর মাধ্যমে আপনি .docx ফাইল থেকে টেক্সট পড়তে বা পরিবর্তন করতে পারবেন। Apache POI এর XWPF API এর মাধ্যমে এই কাজগুলো সঞ্চালন করা সম্ভব।


Text Extraction (টেক্সট এক্সট্র্যাকশন)

Text Extraction এর মাধ্যমে আপনি Word ডকুমেন্ট থেকে নির্দিষ্ট প্যারাগ্রাফ বা টেক্সট বের করে আনতে পারেন। এটি বিশেষভাবে প্রয়োজনীয় যখন আপনি ডকুমেন্টের কোনো তথ্য বিশ্লেষণ বা প্রক্রিয়া করতে চান।

টেক্সট এক্সট্র্যাকশন করার উদাহরণ:

import org.apache.poi.xwpf.usermodel.*;

import java.io.*;

public class ExtractTextFromWord {
    public static void main(String[] args) throws IOException {
        // Word ডকুমেন্ট লোড করা
        FileInputStream file = new FileInputStream(new File("example_word_document.docx"));
        XWPFDocument document = new XWPFDocument(file);

        // সমস্ত প্যারাগ্রাফ থেকে টেক্সট বের করা
        for (XWPFParagraph paragraph : document.getParagraphs()) {
            System.out.println(paragraph.getText());
        }

        // ডকুমেন্ট বন্ধ করা
        file.close();
    }
}

কোডের ব্যাখ্যা:

  1. XWPFDocument ক্লাস ব্যবহার করে .docx ডকুমেন্টটি লোড করা হয়।
  2. getParagraphs() মেথড ব্যবহার করে সমস্ত প্যারাগ্রাফ থেকে টেক্সট পাওয়া যায়। প্রতিটি প্যারাগ্রাফের টেক্সট getText() মেথডের মাধ্যমে এক্সট্র্যাক্ট করা হয়।
  3. প্রতিটি প্যারাগ্রাফের টেক্সট কনসোলে আউটপুট করা হয়।

এছাড়াও, আপনি টেবিলের মধ্যে থাকা টেক্সটও এক্সট্র্যাক্ট করতে পারেন একই পদ্ধতিতে।


Text Replacement (টেক্সট প্রতিস্থাপন)

Text Replacement এর মাধ্যমে আপনি ডকুমেন্টের মধ্যে একটি নির্দিষ্ট টেক্সট পরিবর্তন করতে পারেন। এটি তখন ব্যবহারযোগ্য যখন আপনাকে কোনো টেক্সট ফাইলের মধ্যে বিশেষ শব্দ বা বাক্য পরিবর্তন করতে হয়।

টেক্সট প্রতিস্থাপন করার উদাহরণ:

import org.apache.poi.xwpf.usermodel.*;

import java.io.*;

public class ReplaceTextInWord {
    public static void main(String[] args) throws IOException {
        // Word ডকুমেন্ট লোড করা
        FileInputStream file = new FileInputStream(new File("example_word_document.docx"));
        XWPFDocument document = new XWPFDocument(file);

        // ডকুমেন্টের সকল প্যারাগ্রাফ থেকে টেক্সট পরিবর্তন করা
        for (XWPFParagraph paragraph : document.getParagraphs()) {
            String paragraphText = paragraph.getText();
            if (paragraphText.contains("old text")) {
                // পুরনো টেক্সট "old text" নতুন টেক্সট "new text" দিয়ে প্রতিস্থাপন করা
                paragraphText = paragraphText.replace("old text", "new text");
                // নতুন টেক্সট সেট করা
                XWPFRun run = paragraph.createRun();
                run.setText(paragraphText);
            }
        }

        // ডকুমেন্ট সংরক্ষণ করা
        try (FileOutputStream out = new FileOutputStream("updated_word_document.docx")) {
            document.write(out);
        }

        // ডকুমেন্ট বন্ধ করা
        file.close();

        System.out.println("টেক্সট সফলভাবে প্রতিস্থাপিত হয়েছে!");
    }
}

কোডের ব্যাখ্যা:

  1. Word ডকুমেন্ট লোড: XWPFDocument ক্লাস ব্যবহার করে ডকুমেন্টটি লোড করা হয়।
  2. টেক্সট প্রতিস্থাপন: getText() মেথডের মাধ্যমে প্যারাগ্রাফের টেক্সট নেওয়া হয়। তারপর, replace() মেথড ব্যবহার করে পুরনো টেক্সট নতুন টেক্সটে প্রতিস্থাপন করা হয়।
  3. নতুন টেক্সট সেট করা: প্রতিস্থাপিত টেক্সট প্যারাগ্রাফে আবার সেট করা হয়।
  4. ফাইল সংরক্ষণ: পরিবর্তিত ডকুমেন্টটি updated_word_document.docx নামে সংরক্ষণ করা হয়।

Text Extraction এবং Replacement এর মধ্যে পার্থক্য

  • Text Extraction মূলত ডকুমেন্ট থেকে টেক্সট সংগ্রহ করার প্রক্রিয়া। এটি ডকুমেন্টের বিভিন্ন অংশ থেকে ডেটা বা তথ্য বের করার জন্য ব্যবহৃত হয়।
  • Text Replacement মূলত ডকুমেন্টের নির্দিষ্ট অংশে টেক্সট পরিবর্তন করার জন্য ব্যবহৃত হয়। এটি সাধারণত find-and-replace কার্যক্রমের মতো কাজ করে, যেখানে একটি পুরনো টেক্সট নতুন টেক্সট দ্বারা প্রতিস্থাপন করা হয়।

কিছু গুরুত্বপূর্ণ বিষয়:

  • Word ডকুমেন্টে ফরম্যাটিং: Apache POI এর মাধ্যমে টেক্সট প্রতিস্থাপন করার সময়, টেক্সটের ফরম্যাটিং (যেমন বোল্ড, ইটালিক) হারিয়ে যেতে পারে। সেক্ষেত্রে XWPFRun এর মাধ্যমে টেক্সটের ফরম্যাট ঠিক করা যেতে পারে।
  • নির্দিষ্ট টেক্সট পরিবর্তন: যদি আপনি ডকুমেন্টের মধ্যে একাধিক জায়গায় একই টেক্সট পরিবর্তন করতে চান, তবে আপনাকে প্রতিটি প্যারাগ্রাফ বা টেবিল সেল থেকে টেক্সট পরীক্ষা করতে হবে এবং প্রয়োজনে পরিবর্তন করতে হবে।

সারাংশ

Apache POI এর XWPF API ব্যবহার করে আপনি সহজেই Word ডকুমেন্ট থেকে টেক্সট এক্সট্র্যাক্ট করতে পারেন এবং টেক্সট প্রতিস্থাপন করতে পারেন। Text Extraction এর মাধ্যমে আপনি ডকুমেন্টের সমস্ত টেক্সট পড়তে পারেন, এবং Text Replacement এর মাধ্যমে আপনি নির্দিষ্ট টেক্সট পরিবর্তন করতে পারবেন। এই প্রক্রিয়াগুলি ডকুমেন্টের ভেতরের কনটেন্ট পরিবর্তন বা বিশ্লেষণের জন্য খুবই কার্যকর।

common.content_added_by
টপ রেটেড অ্যাপ

স্যাট অ্যাকাডেমী অ্যাপ

আমাদের অল-ইন-ওয়ান মোবাইল অ্যাপের মাধ্যমে সীমাহীন শেখার সুযোগ উপভোগ করুন।

ভিডিও
লাইভ ক্লাস
এক্সাম
ডাউনলোড করুন
Promotion